Average word length | # of sentences | Source |
---|---|---|
10.65 | 10 | http://hi.wikipedia.org/wiki/लाला_हरपाल_के_जूते |
10.98 | 19 | http://hi.wikipedia.org/wiki/शिवमूर्ति |
11.17 | 10 | http://hi.wikipedia.org/wiki/प्रमुख_जैन_तीर्थ |
11.88 | 11 | http://hi.wikipedia.org/wiki/दन्तचिकित्सा |
11.90 | 10 | http://hi.wikipedia.org/wiki/बीकानेर_के_दर्शनीय_स्थल |
11.90 | 18 | http://hi.wikipedia.org/wiki/नीम |
11.92 | 12 | http://hi.wikiquote.org/wiki/स्वामी_विवेकानन्द |
12.00 | 14 | http://hi.wikipedia.org/wiki/दिल्ली |
12.00 | 15 | http://hi.wikipedia.org/wiki/योगासन |
12.04 | 10 | http://hi.wikipedia.org/wiki/उदयगिरि |
12.08 | 12 | http://hi.wikipedia.org/wiki/खजुराहो |
12.08 | 10 | http://hi.wikipedia.org/wiki/कुर॑आन |
12.13 | 12 | http://hi.wikipedia.org/wiki/द्वारका |
12.13 | 30 | http://hi.wikipedia.org/wiki/अमीर_ख़ुसरो |
12.15 | 11 | http://hi.wikipedia.org/wiki/कश्मीर |
12.16 | 13 | http://hi.wikipedia.org/wiki/बालविकास |
12.18 | 12 | http://hi.wikipedia.org/wiki/जहाजरानी_का_इतिहास |
12.21 | 17 | http://hi.wikipedia.org/wiki/कालसर्प_योग |
12.21 | 17 | http://hi.wikipedia.org/wiki/भूविज्ञान |
12.22 | 11 | http://hi.wikibooks.org/wiki/हिन्दी_में_वैज्ञानिक_साहित्य_सृजन_की_स्थिति |
12.24 | 22 | http://hi.wikipedia.org/wiki/ग्रह_योग |
12.24 | 13 | http://hi.wikipedia.org/wiki/जोशीमठ |
12.29 | 12 | http://hi.wikipedia.org/wiki/कर्ण |
12.29 | 15 | http://hi.wikipedia.org/wiki/भुवनेश्वर |
12.39 | 10 | http://hi.wikipedia.org/wiki/मत्स्य_पालन |
12.39 | 11 | http://hi.wikipedia.org/wiki/हाथ_औजार |
12.41 | 10 | http://hi.wikipedia.org/wiki/छपाई_(वस्त्रों_की) |
12.43 | 11 | http://hi.wikipedia.org/wiki/ईरान_का_इतिहास |
12.51 | 22 | http://hi.wikipedia.org/wiki/भारतीय_दर्शन |
12.55 | 10 | http://hi.wikipedia.org/wiki/ब्रज_शैलीगत_क्षेत्र_विस्तार_की_द्वितीय_स्थिति |
Average word length | # of sentences | Source |
---|---|---|
16.68 | 23 | http://hi.wikipedia.org/wiki/विवाह_संस्कार |
15.43 | 12 | http://hi.wikipedia.org/wiki/कन्नड_साहित्य |
15.28 | 15 | http://hi.wikipedia.org/wiki/मलयालम_साहित्य |
15.12 | 11 | http://hi.wikipedia.org/wiki/पुलिस |
15.10 | 48 | http://hi.wikipedia.org/wiki/अध्याय_१_अर्जुनविशादयोग |
14.95 | 10 | http://hi.wikipedia.org/wiki/ऑल_इंडिया_रेडियो |
14.93 | 64 | http://hi.wikipedia.org/wiki/अध्याय_१०_विभुतियोग |
14.65 | 11 | http://hi.wikipedia.org/wiki/बिहार_का_प्राचीन_इतिहास |
14.59 | 31 | http://hi.wikipedia.org/wiki/अध्याय_५_कर्मसंन्यासयोग |
14.53 | 10 | http://hi.wikipedia.org/wiki/संस्कृत_के_प्राचीन_एवं_मध्यकालीन_शब्दकोश |
14.47 | 10 | http://hi.wikipedia.org/wiki/भारत_सरकार_की_नई_दूरसंचार_नीति |
14.33 | 43 | http://hi.wikipedia.org/wiki/अध्याय_८_अक्षरब्रम्हयोग |
14.32 | 100 | http://hi.wikipedia.org/wiki/अध्याय_११_विश्वरुपदर्शनयोग |
14.26 | 10 | http://hi.wikipedia.org/wiki/चूड़ाकर्म_संस्कार |
14.25 | 12 | http://hi.wikipedia.org/wiki/प्राचीन_तंत्र_साहित्य |
14.24 | 11 | http://hi.wikipedia.org/wiki/भारत_छोड़ो_आन्दोलन_और_बिहार |
14.14 | 87 | http://hi.wikipedia.org/wiki/अध्याय_१५_पुरुषोत्तमयोग |
13.96 | 38 | http://hi.wikipedia.org/wiki/अध्याय_१२_भक्तियोग |
13.94 | 13 | http://hi.wikipedia.org/wiki/बुंदेलखंड_का_आर्थिक_और_औद्योगिक_विकास |
13.84 | 63 | http://hi.wikipedia.org/wiki/अध्याय_१७_श्रध्दात्रयविभागयोग |
13.80 | 36 | http://hi.wikipedia.org/wiki/अध्याय_३_कर्मयोग |
13.79 | 65 | http://hi.wikipedia.org/wiki/अध्याय_१६_देवासुरसंपदविभागयोग |
13.76 | 26 | http://hi.wikiquote.org/wiki/हिन्दी_के_बारे_में_विभिन्न_महापुरुषों_के_वचन |
13.75 | 31 | http://hi.wikipedia.org/wiki/अध्याय_७_ज्ञानविज्ञानयोग |
13.75 | 48 | http://hi.wikipedia.org/wiki/अध्याय_२_साख्यंयोग |
13.74 | 14 | http://hi.wikipedia.org/wiki/लखनऊ |
13.71 | 14 | http://hi.wikipedia.org/wiki/हिन्दी_कहानी_का_इतिहास |
13.68 | 85 | http://hi.wikipedia.org/wiki/अध्याय_६_ध्यानयोग |
13.65 | 60 | http://hi.wikipedia.org/wiki/अध्याय_९_राजविद्याराजगृह्ययोग |
13.55 | 16 | http://hi.wikiquote.org/wiki/सुभाषित_सहस्र |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words